DeepL lance DeepL Voice-to-Voice, une suite de solutions pour traduire la parole en direct. Réunions sur Zoom ou Teams, conversations en face-à-face, groupes de travail - chaque usage a son produit dédié. Une API ouvre par ailleurs la technologie aux entreprises souhaitant l'intégrer dans leurs propres outils, comme les centres de contacts clients.

Depuis sa création en 2017, DeepL s'est construit sur la traduction de texte et de documents. La voix, c'est un autre défi. Il faut alors traduire les propos d'une personne en quelques millisecondes, ce qui exige donc un équilibre délicat entre vitesse et précision.
Un pipeline en trois étapes où la latence est le vrai enjeu
DeepL Voice-to-Voice ne traduit pas directement la voix. Le système convertit d'abord la parole en texte via la reconnaissance vocale. Ce texte est ensuite traduit. La traduction est enfin restituée sous forme audio. Trois étapes donc, ce qui rend la gestion de la latence particulièrement critique.
En janvier dernier, nous avions interviewé Edward Crook, VP Stratégie de DeepL, lequel soulignait déjà que "la traduction vocale n'est vraiment utile que si elle restitue le sens pratiquement instantanément, sans instabilité". Jarek Kutylowski, PDG de DeepL, reconnaît que c'est le nœud du problème : trouver le bon dosage entre rapidité de restitution et fidélité de la traduction. L'objectif à terme est de développer un modèle "end-to-end", qui passerait de la voix à la voix sans traitement textuel intermédiaire avec une architecture plus directe, et donc potentiellement plus rapide.
DeepL entend répondre à plusieurs usage avec d'abord "Voice for Meetings" qui s'intègre à Zoom et Microsoft Teams. Chaque participant peut donc parler dans sa langue, les autres l'entendront dans la leur. Ce module sera disponible en accès anticipé dès juin. De son côté, "Voice for Conversations" sur mobile et navigateur est accessible dès maintenant. "Group Conversations" conçu pour des formations ou des ateliers, sera disponible le 30 avril. Par ailleurs, une API dédiée permet aux entreprises d'intégrer la technologie dans leurs propres systèmes.
Un outil pensé pour les pros
DeepL annonce la prise en charge de plus de 40 langues, dont les 24 langues officielles de l'Union européenne, le vietnamien, le thaï, l'arabe, l'hébreu, le bengali ou encore le tagalog. Selon des évaluations commandées par DeepL et conduites par le cabinet Slator, 96% des linguistes consultés auraient préféré DeepL Voice aux solutions natives de Google, Microsoft et Zoom, avec des scores de 96,4/100 sur Zoom et 96,3/100 sur Teams. Bon, évidemment, l'étude ayant été financée par DeepL... mieux vaut prendre ces chiffres avec des pincettes.
Apple et Google proposent depuis fin 2025 leur propre traduction vocale en temps réel, gratuitement, et directement dans les AirPods. Si ces options sont certainement pratiques pour une conversation touristique ou un échange ponctuel, elles montrent toutefois leurs limites dans un contexte professionnel. Ces solutions ciblant le grand public ne gèrent pas la terminologie métier, ne s'intègrent pas aux outils d'entreprise, et ne permettent pas à une dizaine de personnes de se parler simultanément dans des langues différentes lors d'une visioconférence.

- Une référence parmi les traducteurs de texte.
- Pertinent, précis et nuancé.
- Plusieurs abonnements au choix.